查看原文
其他

微生物多样性专题 | 扩增子测序分析实战(二) 如何通过gi号获取物种注释?

2017-09-01 生信控

文:向屿 | 编辑:湖心

本文系原创转载需授权


微生物多样性专题 

扩增子测序分析实战(二)


如何通过gi号获取物种注释?

大家还记不记得我们上一期在讲(二)数据库整理之FunGene 的时候,抛出了一个问题,如何通过核酸序列gi号获得其对应的物种注释信息?本期,小编将为大家详细讲解这个问题的解决方法!

思路比较简单,需要两个文件:

1、gi号和taxid的对应文件;

2、taxid和物种注释的对应文件;


由此即可得到gi号和物种的对应关系,实现步骤如下:


1、gi2taxid

NCBI官网提供了该数据:

gi_taxid_nucl.dmp/gi_taxid_prot.dmp


下载地址:

ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/


ftp://ftp.ncbi.nih.gov/pub/taxonomy/gi_taxid_nucl.dmp.gz  

# 核酸gi与taxid的对应关系,本期只需要这一个


ftp://ftp.ncbi.nih.gov/pub/taxonomy/gi_taxid_prot.dmp.gz  

# 蛋白gi与taxid的对应关系,是附送下载的


2、taxid2taxonomy

NCBI提供taxid及其物种信息ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdmp.zip,我们在之前的(二)数据库整理之 taxdmp 中已经做了初步介绍,已知整理起来相当复杂,所以小编这次就给大家介绍一个更容易操作的小工具:ncbitax2lin,可以实现taxid及其对应物种的下载及整理,在GitHub的网址 https://github.com/zyxue/ncbitax2lin,安装使用如下:

文件操作会消耗较大的资源,建议在服务器较空闲的时候进行

2.1、工作目录 

cd /home/panrf/database/NCBI


2.2、下载 

wget https://codeload.github.com/zyxue/ncbitax2lin/zip/master


2.3、解压并删除压缩包 

unzip master && rm master 


2.4、 cd ncbitax2lin-master


2.5、make # this will download the latest taxdump from NCBI, and run the scripts to regenerate all latest lineages fromit

如果显示如下报错:       

不要惊慌,此时数据下载已经完成,当前文件夹下执行解压缩 

tar zxvf./taxdump/taxdump.tar.gz

        

2.6、执行文件整理的操作:

python ncbitax2lin.py --nodes-file taxdump/nodes.dmp 

--names-file taxdump/names.dmp -o lineage 

【所以也可自行下载并解压taxdump.tar.gz 然后运行该步骤】

...       

当前目录下生成 lineages.csv.gz,解压即可!


2.7、完成上述步骤,最终生成的 lineages.csv 文件,内容如下: 

注:第一列为taxid,其后为各水平的注释信息~



三、gi2taxonomy

* 4亿条 protgi2tax 记录以及 6亿条 nuclgi2tax 记录 *

基于上述两个步骤生成的文件,以taxid作为桥梁,将gi2taxid 和 taxid2taxonomy 结合提取gi号对应的物种注释即可,还是要在服务器上用编程语言实现,个人电脑带不动!


最终在output目录下会生nuclgi2tax/protgi2tax

文件,第一列为gi号,第二列为8个水平的物种注释:

对,就是它!赶快拿去整理FunGene数据库吧!




温馨提示:

1、该数据将用于结合blast+结果为序列提供物种注释,由于数据量比较大,可以考虑将数据拆分,并行处理。

split -l 30000000 nuclgi2tax /home/pub/database/NCBI/taxonomy/nuclgi2tax.spl 

# 每个拆分文件的行数可以根据要拆分为多少个文件去计算得到

split -l 20000000 protgi2tax /home/pub/database/NCBI/taxonomy/protgi2tax.spl  # 拆分为protgi2tax.spl*


2、NCBI同时提供了accession2taxid 数据:

ftp://ftp.ncbi.nih.gov/pub/taxonomy/accession2taxid






您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存